Semiautomatische Metadaten-Extraktion und Qualitätsmanagement in Workflow-Systemen zur Digitalisierung historischer Dokumente

نویسنده

  • Hendrik Schöneberg
چکیده

Listing 7.1: Schnittstelle ’WordParser’ Schritt 3: Erstellung des Invertierten Indexes Sind Satzund Term-Index erzeugt, kann mit Hilfe dieser Datenstrukturen im dritten Arbeitsschritt des Klassifikations-Workflows nun ein dritter Index erzeugt werden. In diesem invertierten Term-Index (in Anlehnung an [Baeza-Yates und Ribeiro-Neto (1999)]) wird zusätzlich hinterlegt, in welchen (in Schritt 1 vom Sentencer erzeugten) Sätzen jeder (vom WordParser in Schritt 2 erzeugte) Term des Quelldokuments auftaucht. Dieser Arbeitsschritt ist in Abbildung 7.1 als Schritt 3 zu sehen. Die Klasse InvertedIndexer erzeugt Trefferlisten, die angeben, in welchen Sätzen im Satz-Index ein gegebener Term zu finden ist. Wie zuvor wird auch der invertierte Index in einer Kopfund Rumpf-Struktur abgespeichert, mit dem Unterschied, dass der n-te ganzzahlige Eintrag im Kopfteil nun einen Wert enthält, der codiert, in welcher Entfernung zum Anfang des Indexes die Trefferliste 78 Implementierung: Klassifikations-Framework für den n-ten Term aus dem Term-Index beginnt (vgl. Abschnitt 7.4). Schritt 4: Erstellung der Vektor-Datenbank Unter Verwendung der bisher erzeugen Index-Strukturen kann jetzt das Quelldokument effizient durchsucht werden. Es gilt nun, die kontextuellen Eigenschaften aller Terme des Quelldokuments zu analysieren. Dies entspricht Arbeitsschritt 4 im abstrakten Klassifikations-Workflow, wie in Abbildung 7.1 dargestellt. Die Schnittstelle Contexter hat die Aufgabe, den Kontext (wie definiert auf Seite 25) zu einem gegebenen Term zu extrahieren. Wie zuvor auch schon beim Sentencer und WordParser gibt es unterschiedliche Implementierungen, die in Abhängigkeit vom Quelldokument und dessen Domäne gewählt werden können. Eine mögliche Implementierung ist ein Contexter, der eine feste Anzahl von Termen rund um den zu untersuchenden Term als Kontext definiert (Klasse FixedWindowContexter). Nachdem der Kontext eines Terms in geeigneter Weise extrahiert wurde, gilt es dessen Eigenschaften zu analysieren und serialisieren. Diese Aufgabe wird von der Schnittstelle FeatureModule übernommen. Der Anwender kann dem Contexter eine Liste von FeatureModulen zuweisen, deren Analyse-Resultate dann im Kontext-Vektor gespeichert werden. In Kapitel 5 wurde dieser Vorgang ausführlich in der Theorie erläutert, die nachfolgenden Abschnitte gehen nun auf einige Implementierungsdetails ein. Innerhalb eines Kontext-Vektors werden die kontextuellen Eigenschaften eines Terms gespeichert, wie sie im gesamten untersuchten Text-Corpus auftauchen. Dazu extrahiert der Contexter zunächst den Kontext zu einem gegebenen Term und reicht diesen dann an eine Liste von FeatureModulen weiter, welche dann die Eigenschaften des Kontexts serialisieren. Ein FeatureModul untersucht den übergebenen Kontext auf eine bestimmte Eigenschaft (wie beschrieben in Abschnitt 5.2.3 auf Seite 44) und muss dazu lediglich eine schmale Schnittstelle erfüllen (zu sehen in Programmausdruck 7.2). Jedes FeatureModul hat eine einzigartige Identifikations-Nummer und weist jeder Eigenschaft, die während der Analyse 7.4 Implementierung 79 gefunden wird, eine innerhalb des FeatureModuls einzigartige Identifikationsnummer zu. Durch die Kombination der FeatureModul-Identifikationsnummer mit der Feature-Identifikationsnummer entsteht eine global eindeutige Identifikation für jede Komponente des Kontext-Vektors. Grafik 5.6 zeigt den schematischen Aufbau eines Kontext-Vektors. Die Vektoren werden nun ebenfalls in einem Header-BodyIndex gespeichert (beschrieben in Abschnitt 7.4), so dass man effizient auf den Kontext-Vektor für einen gegebenen Term zugreifen kann. 0 /∗∗ 1 ∗ an a ly ze t he g iven con t ext 2 ∗ 3 ∗ @param con t ext 4 ∗ @r e t u r n FeatureCategory 5 ∗/ 6 p u b l i c a b s t r a c t FeatureCategory analyzeContext ( S t r i n g [ ] context ) ; Listing 7.2: Schnittstelle ’FeatureModule’

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Ein ganzheitlicher Ansatz zur Digitalisierung und Extraktion von Metadaten in Videoarchiven

Multimedia archives have been growing continually throughout the last decades. To meet the need to develop essential new solutions for automated extraction, administration and maintenance of metadata, we propose integrating two frameworks with different tasks to create a unique system with the capability to extract both content-based information and technical boundary conditions during the inge...

متن کامل

Digitale Assistenz in komplexen, ämterübergreifenden Verwaltungsprozessen

Durch die Nutzung von IT-Systemen lassen sich komplexe Prozesse innerhalb der Verwaltung effizienter und bürgerfreundlicher gestalten. Die Bearbeitung der Prozesse setzen dabei meist die Zusammenarbeit zwischen verschiedenen Ämtern, Organisationen sowie die Einbeziehung von Fachwissen voraus. Workflow-, Web-Servicesund Semantic-Web-Technologien bilden eine mögliche Grundlage zur Konzeptionierun...

متن کامل

Towards a Description Grid - Ansätze für die verteilte Metadatengenerierung für Multimediadaten

Derzeitige Multimedia-Content-Managementsysteme und Multimediadatenbanken sind im Allgemeinen als spezialisierte und monolithische Systeme umgesetzt, die notwendige Metadatenextraktionsalgorithmen eng gekoppelt mit dem Anwendungsfeld umsetzen und integrieren. Der vorliegende Beitrag schlägt einen Ansatz für die verteilte Generierung bzw. Extraktion von Metadaten innerhalb eines Description Grid...

متن کامل

Semiautomatische Erweiterung von Topic Maps mit Hilfe von Thesauri und User-Feedback

Das Semantic Web stellt die nächste Stufe der Evolution des World Wide Web dar. Der Prozess der Erweiterung bestehender Datenbestände um Metadaten die Annotation ist teuer und aufwändig. Diese Arbeit untersucht einen Ansatz, in dem ein initiales, von Experten gefertigtes semantisches Netz konventionelle Suchvorgänge begleitet und unterstützt. Das semantische Netz wächst dabei mit seiner Benutzu...

متن کامل

Digitalisierung historischer Glossare zur automatisierten Vorannotation von Textkorpora am Beispiel des Altdeutschen

Um Wörter und Wortformen innerhalb von Texten auffindbar zu machen, waren im vordigitalen Zeitalter Glossare unerlässlich. Heute lassen sich ihre Daten automatisiert mit den zugehörigen Texten zusammenführen, um die Texte so mit weiteren Informationen anzureichern. Für die dazu notwendige Digitalisierung der Glossare ist angesichts des historischen Druckbildes und der oft nicht eindeutigen Info...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014